里程碑!AlphaFold成功预测约2亿种蛋白质结构,涵盖地球上几乎所有已知蛋白质
从今天起,预测几乎任何科学界已知蛋白质的三维结构,将像谷歌搜索一样简单。
重大飞跃
7 月28 日,DeepMind 公司在官网公布了最新突破,其与欧洲生物信息研究所(EMBL-EBI)合作,通过AlphaFold成功预测了来自100万个物种的约2亿种蛋白质结构,几乎涵盖了地球上所有已知的蛋白质。
“基本上,你可以认为这个数据库涵盖了整个蛋白质宇宙,我们迈入了数字生物学的全新时代。”DeepMind的CEO Demis Hassabis博士说道。
Demis Hassabis博士(来源:DeepMind官网)
DeepMind使用一种称为深度学习的人工智能技术开发了AlphaFold网络。2021年,公司陆续公开了AlphaFold人工智能系统源代码并且详细描述了它的设计框架和训练方法;与EMBL-EBI 合作,推出了AlphaFold蛋白质结构公开数据库AlphaFold DB。其中,35万个结构预测涵盖了人类、小鼠和其他19种被广泛研究的生物体产生的几乎每种蛋白质。自那之后,目录又增加到了大约100万条。
本次更新的蛋白质结构已公布在AlphaFold DB中,使其扩展超200倍(从近100万个结构到超过2亿个结构),将可能大大增加人们对生物学的理解。AlphaFold对蛋白质结构的预测也不再局限于人类与模式生物,而是拓展至动植物、细菌和其他生物体,为研究人员利用AlphaFold推进其在重要问题(包括可持续性、粮食安全和被忽视的疾病)上的工作开辟了许多新机会。
来源:DeepMind官网
此外,相关更新数据也会被整合到其他常用数据库UniProt、Ensembl和OpenTargets中,在Google Cloud Public Datasets中可以批量下载这些蛋白质结构,让世界各地科学家更容易访问AlphaFold。
据EMBL-EBI 确认,在超2.14亿个预测的蛋白质结构中,有35%是高度准确的(达到了实验室测定的结构精度),总体80%的蛋白质结构的可靠性足以用于多项后续的研究和分析。
只是开始
AlphaFold将生物学带入了一个结构丰富的时代,为科学探索开启了数字速度。AlphaFold DB作为蛋白质结构的“谷歌搜索”,为研究人员提供了即时访问其研究中蛋白质预测模型的机会,使他们能够集中精力加快实验工作。
从抗击疾病到开发疫苗,AlphaFold已经在我们面临的一些最大的全球挑战上取得了令人难以置信的进展,而这只是我们在未来几年即将看到的影响的开始。DeepMind希望,这个扩展的数据库将帮助更多的科学家开展工作,并开辟全新的科学探索途径,例如宏蛋白质组学(metaproteomics)。
DeepMind正努力利用所有这些潜力,在多个领域进行重大投资,包括与新的姊妹Alphabet公司Isomorphic Labs合作,以AI-first的方法从第一原理重新构想整个药物发现过程;在著名的Francis Crick研究所建立wet lab,加强人工智能与实验技术之间的联系,以提高对生物学的理解,包括蛋白质设计和基因组学;扩大DeepMind自身的人工智能科学团队,以加速公司基础生物学研究的进一步进展,并将人工智能应用于其他重要的科学挑战,如气候科学、量子化学和核聚变。
AlphaFold是对将计算和人工智能方法应用于生物学可能会带来的影响的未来一瞥。在其最基本的层面上,生物学可以被视为一个信息处理系统,尽管这是一个异常复杂和新兴的系统。正如数学是物理学的完美描述语言一样,人工智能可能正是应对生物学动态复杂性的正确技术。对此,AlphaFold是首个重要证明。DeepMind团队表示:“作为‘数字生物学’新兴领域的先驱,我们很高兴看到人工智能的巨大潜力开始被实现,成为人类推进科学发现和理解生命基本机制的最有用工具之一。”
推荐阅读:
参考资料:
1# AlphaFold reveals the structure of the protein universe(来源:DeepMind官网)
2# DeepMind has predicted the structure of almost every protein known to science(来源:MIT Technology Review)
3# ‘The entire protein universe’: AI predicts shape of nearly every known protein(来源:Nature)
注:封面图来源于DeepMind官网
100个新靶点(后台回复靶点,获取相关Excel)
AACR资料包(后台回复AACR,获取资料合集)
2022 ASCO资料包(后台回复ASCO,获取20份PPT合集)